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摘 要 近年 来 ， 以 “数据 + 人 工 智能 (AT) ”为 特征 的 数据 驱动 新 型 研究 范式 得 到 了 快速 发 展 。 围绕 传 统 研究 范式 建立 的 数据 产生 、 收 外 
存储 、 应 用 体系 已 无 法 满足 新 范式 的 要 求 ， 玻 需 建 立 以 AI 为 导向 的 新 型 数据 生态 系统 ， 以 释放 数据 驱动 的 颠覆 性 优势 。 本 文 分 析 了 AI 方 
法 的 特点 ， 针 对 性 地 提出 AI 语 境 下 材料 数据 应 遵循 海量 、 全 面 、 完 整 、 均 衡 、 可 共享 的 原则 。 其 中 数据 完整 性 和 可 共享 性 ， 是 单条 数据 的 
和 村 性 ， 可 以 通过 数据 标准 化 得 到 保障 。 而 数据 是 否 满足 海量 、 全 面 和 均衡 条 件 ， 更 多 地 取决 于 数据 生态 的 特点 ， 需 要 全 新 的 材料 数据 基础 
设施 提供 支撑 。 作 为 概念 化 的 理想 材料 数据 基础 设施 , “数据 工厂 "将 颠覆 现 有 的 数据 生产 模式 ， 带 来 材料 数据 数量 和 质量 的 全 面 提升 ， 持 
续 不 断 地 提供 ALready 的 数据 。 
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ABSTRACT In recent years, the data-driven research paradigm featured by "data + artificial intelligence (AI)" 
has developed rapidly. The data generation, collection, storage and application system built around the current 
research mode can no longer meet the requirements of the new paradigm. Therefore, it is urgent to establish a new 
Al oriented data ecosystem to fully unleash the potential of data-driven paradigm. This paper puts forward that the 
principles which the material data for AI should follow, including massiveness, comprehensiveness, integrity, 
balance and shareability, based on the characteristics of AI methods. Among them, the data integrity and 
shareability, the characteristics of an individual piece of data, are ensured through data standardization. While the 
other requirements depend more on the data ecosystem, which requires a new material data infrastructure to 
support. As a conceptualized model of Al-ready material data infrastructure, Data Fab will revolutionize the 
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materials data production. It is conceivable that the Data Fab will serve as a reliable source for Al-ready material 


data and to bring about improvement in both data quantity and quality. 
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2011 年 , 美国 启动 了 材料 基因 组 计划 (MGDID， 则 在 利用 定量 数据 和 计算 代码 来 发 现 和 预测 材料 的 行 
为 ， 实 现 材料 研发 由 试 错 法 向 预测 型 范式 的 转变 , 从 而 加 快 新 材料 的 发 现 、 设 计 、 开 发 和 部 署 , 降低 成 本 。 
其 中 心 内 容 是 发 展 先进 的 材料 计算 、 实 验 和 测试 及 数据 信息 学 的 工具 ， 并 将 它们 集成 ， 构 建新 型 的 材料 创 
新 基础 设施 。 欧盟 、 日 本 等 发 达 国 家 也 迅速 启动 了 类 似 的 政府 主导 的 研究 计划 IB 的。 中国 科学 院 和 中 国 工 
程 院 自 MGI 发 布 的 当年 起 ， 分 别 组 织 开 展 了 广泛 的 咨询 和 调研 。 基 于 中 国 工程 院 关 于 中 国 版 材料 基因 组 
计划 咨询 报告 ， 汪 洪 等 加 对 材料 基因 组 的 理念 进行 了 归纳 总 结 ， 并 根据 中 国 的 实际 需求 特点 与 现 有 条 件 
对 实施 中 国 版 材料 基因 组 计划 的 发 展 成 略 、 技 术 路 线 、 政 策 措施 等 提出 了 建议 。 科 技 部 于 2015 年 启动 了 
“材料 基因 工程 关键 技术 与 支撑 平台 ”重点 专项 四 。 此 后 ， 汪 潜 等 四 进一步 讨论 了 材料 基因 工程 的 三 种 有 具 
代表 性 的 工作 模式 ， 阐 明了 材料 基因 工程 方法 与 传统 方法 的 根本 不 同 点 在 于 以 数据 为 基础 。 明 确 提 出 数据 
驱动 模式 以 “数据 十 人 工 智能 ”为 标志 ， 围 绕 数 据 产生 与 数据 处 理 展开 ， 通 过 大 量 数据 结合 人 工 智能 
(Artificial Intelligence, AD 分 析 ， 揭 示 海 量 数据 间 的 关联 ， 挖 掘 潜藏 的 参量 关系 。 数 据 驱 动 为 材料 研究 
开拓 了 新 的 视角 ， 得 益 于 AI 的 高 效 数 据 分 析 处 理 能 力 ， 数 据 驱 动 模式 大 幅度 增加 了 研究 问题 的 维度 ， 提 
高 了 材料 探索 速度 ， 从 而 有 望 带 来 颠覆 性 的 效果 。 与 之 相 比 ， 实 验 驱 动 与 计算 驱动 仍旧 以 传统 的 基于 事实 
判断 或 理论 推演 的 方式 开展 ， 并 未 改变 既定 的 研究 思维 。 因 此 ， 数 据 驱 动 代 表 了 材料 基因 工程 的 核心 理念 
与 发 展 方向 。 近 年 来 ， 以 数据 +AI 为 基本 方法 的 材料 研究 工作 正 呈 快速 上 升 趋势 《如 图 1) ， 数 据 驱 动 的 
材料 研究 态势 已 初步 形成 。 
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1 材料 领域 “数据 + 人 工 智能 ”研究 的 发 表 和 引用 趋势 
Fig.1 Trends of publication and citation of "data + AI" research in the field of materials 
关于 人 工 智 能 的 科学 定义 ， 可 以 从 多 个 方面 进行 阐述 81]。 从 数据 角度 ， 人 工 智能 CAD 被 定义 为 “一 
个 系统 所 具有 的 正确 解读 外 部 数据 、 从 这 些 数 据 中 学 习 、 并 通过 灵活 的 适 配 使 用 这 些 习 得 知识 来 实现 特定 
目标 和 任务 的 能 力 0909”。 这 种 能 力 为 材料 研究 提供 了 一 个 通过 数据 间 相 关 性 来 探索 规律 的 方法 。 它 有 别 于 
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传统 物理 模型 所 依赖 的 因果 性 ， 为 缺乏 基本 物理 模型 条 件 下 的 科学 规律 研究 提供 了 新 的 视角 nl。 材 料 是 由 

极 大 数量 原子 构成 的 复杂 体系 ， 材 料 性 能 经 常 是 多 个 物理 机 制 耦 合 的 结果 ， 很 少 只 受 单一 因素 影响 ， 因 此 

仅仅 建立 起 性 能 与 某 一 个 参量 相关 的 简单 模型 ， 很 难 描述 清楚 。 从 生活 经 验 可 知 ， 通 常人 类 大 脑 只 能 想象 

三 维 图 像 ， 同 时 处 理 超过 三 个 变量 以 上 的 问题 是 具有 很 大 挑战 性 的 。 利 用 人 工 智能 方法 可 以 轻松 地 同时 研 

究 成 百 上 千 个 参量 耦合 的 效果 ， 这 大 大 增加 了 理解 问题 的 维度 。 因 此 ， 在 解决 这 类 问题 时 具有 极 大 优势。 

与 此 同时 ， 传 统 实验 或 计算 研究 所 形成 的 先 验 知识 在 实际 中 常 被 用 于 为 人 工 智能 构建 知识 模型 提供 特征 选 

择 和 模型 优化 、 解 释 的 基础 参考 ta03a04， 因 而 ， 数 据 驱 动 并 非 是 实验 驱动 与 计算 驱动 模式 的 简单 替代 ， 而 

是 在 此 基础 上 的 补充 和 延伸 。 

人 工 智能 基于 数据 而 建立 。 数 据 的 规模 和 质量 与 人 工 智能 模型 的 可 靠 性 呈正 相关 关系 ， 因 此 ， 数 据 + 

人 工 智能 共同 构成 了 数据 驱动 范式 的 核心 内 容 。 简 单 来 说 ， 数 据 就 是 我 们 通过 观察 、 实 验 或 计算 得 出 的 结 

果 03。 在 传统 思维 中 ， 数 据 的 主要 作用 是 提供 事实 ， 作 为 科学 研究 、 技 术 设计 、 查 证 、 决 策 所 依托 的 数值 

根据 来 使 用 ， 主 要 体现 其 表 观 价值 。 长 期 以 来 ， 材 料 科学 数据 生态 是 围绕 计算 、 实 验 等 传统 研究 范式 而 建 

立 的 。 数 据 经 党 作为 个 体 研究 者 在 特定 目标 的 研究 中 为 获得 特定 信息 所 进行 的 实验 或 计算 的 结果 而 被 产生 

并 收集 ， 因 此 整体 呈现 出 多 源 异 构 、 规 模 小 、 离 散 分 布 、 无 规范 的 特点 。 在 人 工 智能 背景 下 ， 数 据 是 作为 

三 。 各 种 参数 综合 作用 效果 的 承载 体 ， 为 数据 挖掘 提供 信息 源 。 人 工 智能 方法 对 大 量 数据 进行 处 理 与 分 析 ， 通 

记过 建立 数据 间 的 关联 ， 挖 掘 出 背后 构成 这 种 关联 的 参数 及 相互 关系 ， 此 时 更 多 地 是 体现 数据 的 内 在 价值 。 

于 数据 驱动 模式 在 数据 使 用 中 表现 出 的 新 特点 ， 对 用 于 AT 的 数据 在 组 织 形式 和 内 容 上 都 提出 了 不 同 于 

二 往常 的 新 要 求 。 
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oO 的 数据 在 基于 AI 的 应 用 中 ， 其 查找 、 访 问 、 准 备 、 共 享 、 重 用 和 机 器 自动 处 理 方面 都 遇 到 一 定 困难 ， 这 

客观 上 阻碍 、 延 缓 了 数据 驱动 模式 在 科学 研究 领域 获得 更 快 、 更 广泛 地 应 用 09。 因 此 ， 在 材料 科学 领域 正 

阔步 迈 向 数据 驱动 新 未 来 的 时 刻 ， 有 必要 对 于 在 AL 语 境 下 材料 数据 应 具有 的 特征 、 性 质 、 特 点 取得 深刻 

的 理解 与 明确 的 认识 ， 从 而 指导 面向 未 来 的 材料 数据 的 采集 、 组 织 、 存 储 与 使 用 ， 使 之 适合 用 于 人 工 智能 

方法 ， 助 力 其 充分 发 挥 出 特殊 的 潜力 。 具 有 这 样 特点 的 数据 在 近期 发 布 的 新 版 美国 材料 基因 组 战略 计划 07 

中 被 恰当 地 称 为 ALready CAT 就 绪 ) 。 对 ALready 的 含义 做 出 清晰 地 解释 将 为 构建 面向 未 来 的 材料 科学 数 

据 基础 设施 提出 必要 的 基本 遵循 。 这 对 于 推动 人 工 智能 方法 在 材料 科学 领域 中 的 应 用 ， 加 速 研究 范式 从 斌 
法 向 数据 驱动 的 预测 型 转变 具有 决定 性 意义 。 

本 文 从 AL 的 自身 特点 出 发 ， 结 合 材料 领域 数据 治理 现状 和 最 新 趋势 ， 对 Already 的 材料 数据 所 需 满 

"o 足 的 特点 、 要 求 进行 了 全 面 分 析 ， 在 此 基础 上 进行 总 结 ， 讨 论 了 实现 ALready 的 举措 和 领域 内 正在 开展 的 

相关 工作 。 
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1 Al-ready 对 材料 数据 的 要 求 
1.1 海量 数据 

人 工 智能 本 身 融 合 了 统计 学 的 相关 知识 , 需要 有 足够 的 样本 量 来 表征 所 训练 数据 潜在 规律 的 显著 性 15， 
再 将 其 学 习 到 的 数据 关联 知识 用 于 新 样本 的 决策 判断 中 。 众 多 案例 表明 ， 随 着 模型 训练 集 数 据 量 的 增加 ， 
模型 愈加 准确 。 例 如 Schmidt 等 (9 报告 ， 钙 钛 矿 化 合 物 形成 能 的 预测 误差 随 着 训练 集 数据 量 的 增加 呈 窜 指 
数 单调 下 降 ， 当 训练 集 加 倍 大 约 可 将 误差 降低 20%; Lee 等 RY 研究 了 无 机 化 合 物 带 隙 的 机 器 学 习 模型 ， 音 
分 模型 误差 随 数 据 量 增加 下 降 趋 稳 ， 而 对 于 支持 向 量 机 模型 ， 当 达到 该 工作 最 大 数据 量 时 ， 误 差 仍 呈 明显 
下 降 趋 势 ， 说 明 数 据 量 的 增加 将 进一步 促进 模型 的 优化 。 因 此 ， 海 量 的 数据 是 人 工 智 能 采用 相关 性 策略 探 
索 的 基本 保障 。 

材料 研究 领域 长 期 延续 着 课题 小 组 的 工作 模式 , 研究 社区 主体 以 传统 的 低 通 量 实验 或 计算 方法 来 对 材 
料 的 特性 进行 表征 或 模拟 ， 再 用 产生 的 结果 进行 材料 构 效 关系 构建 。 工 作 模式 的 分 散 及 表征 、 模 拟 方法 的 
多 样 ， 造 成 材料 数据 来 源 众多 ， 且 研究 社区 内 没有 建立 明确 而 统一 的 数据 管理 规范 ， 导 致 了 各 个 研究 团队 
采集 数据 的 种 类 和 格式 互 不 相同 ， 数 据 呈 现 出 多 源 异 构 的 特点 0， 即便 以 某 个 具体 材料 类 型 为 主题 来 汇集 


研究 数据 ， 比 如 铝 基 高 温 合 金 材料 的 制备 、 表 征 数 据 ， 因 为 不 同 团队 数据 模板 格式 的 差异 性 ， 总 的 可 用 数 
据 量 仍旧 不 会 太 大 的 。 可 用 数据 匮乏 问题 在 机 器 学 习 相 关 的 研究 工作 和 评述 文章 里 经 常 被 提 及 户 ]P4P529。 
目前 材料 领域 对 海量 数据 获取 途径 可 大 致 分 为 两 种 : 

C1) 高 通 量 实验 与 计算 技术 ， 是 高 效 产生 大 量 材料 数据 的 直接 手段 POP8P9。 例 如 ， 以 组 合 芯片 为 代 
表 的 高 通 量 制备 技术 B9, 可 在 一 块 1 英 寸 见 方 的 基板 上 快速 制备 包含 履 盖 完整 三 元 系 成 分 含量 的 薄膜 样品 。 
采用 同步 辐射 微 束 X 光 面 探 衍射 技术 对 其 进行 表征 ， 单 点 衍射 表征 时 间 可 缩短 到 1-2 秒 ， 在 一 块 组 合 材 料 
蕊 片 样品 上 获取 5000 点 以 上 的 衍射 谱 图 ， 总 耗 时 在 7 小 时 以 内 ， 单 日 可 完成 3 块 组 合 材料 芯片 的 逐 点 结 
构 表征 工作 。 以 第 一 性 原理 计算 为 代表 的 高 通 量 计算 依托 先进 超级 计算 机 的 超 强 算 力 、 智 能 纠 错 的 自动 化 
计算 流程 、 规 范 化 的 计算 参数 设 定 ， 可 高 速 批量 化 地 产 出 大 量 服务 于 材料 设计 的 计算 模型 数据 BHU。 高 通 量 
实验 与 计算 技术 是 从 根源 上 加 快 产生 材料 数据 量 的 有 效 方式 ,我 国 在 十 三 五 期 间 通 过 材料 基因 工程 重点 研 
发 计划 专项 对 高 通 量 实验 与 高 通 量 计算 技术 进行 了 系统 布局 ， 并 取得 了 诸多 进展 加。 各 个 细 分 材料 领域 正 
在 持续 推进 该 工作 的 开展 PDB23B3]。 

(2) 从 海量 文献 提取 数据 BN。 迄今 为 止 ， 各 种 公开 发 表 的 科学 文献 是 大 量 重要 的 科研 数据 的 最 主要 
出 口 与 聚集 地 ， 将 它们 收集 起 来 具有 重要 意义 B9。 目 前 研究 成 果 的 呈现 并 无 标准 形式 ， 大 部 分 均 以 非 结构 
a 化 的 异 构 形式 公开 。Pauling File 项 目 65 是 最 大 的 人 工 收集 无 机 晶体 材料 数据 的 项 目 之 一 ， 收 集 了 从 1891 
« 至 今 材 料 科 学 、 工 程 、 物 理 和 无 机 化 学 的 科学 文献 中 提取 的 晶体 结构 、 物 理性 质 和 相 图 数据 ， 迄 今 总 共 
包含 了 超过 350000 个 晶体 结构 、150000 个 物理 性 质 和 50000 个 相 图 ， 并 于 2016 年 推出 了 在 线 版 本 
MPDS(Materials Platform for Data Science，https://mpds.io)。 同 时 ， 借 鉴 生 物 医药 信息 学 领域 的 经 验 ， 研 究 
=) 者 们 开始 尝试 采用 自然 语言 处 理 、 文 本 挖掘 方法 等 计算 机 技术 来 自动 化 地 从 文献 中 提取 数据 。 英国 剑 桥 大 
= FJ. Cole 开发 了 一 个 用 于 化 学 文本 的 自然 语言 处 理工 具 包 ChemDataExtractor84， 并 使 用 它 构建 了 磁性 材 
料 相 变温 度 的 大 型 数据 集 B3， 以 及 电池 材料 电化 学 性 质 的 数据 集 B3。 从 文献 中 提取 数据 是 对 当前 非 结构 化 
数据 发 表 生 态 的 一 种 弥补 性 方案 ， 其 中 手动 提取 模式 需要 专家 知识 来 进行 标注 ， 数 据 精 度 较 高 ， 但 耗费 大 
量 人 工 ， 效 率 较 低 ， 而 采用 自然 语言 处 理 和 文本 挖掘 算法 来 自动 提取 文献 数据 效率 比较 高 ， 但 是 精度 比较 
氏 。 从 文献 中 提取 数据 是 一 种 间接 的 数据 收集 方式 ， 数 据 在 非 结 构 化 发 表 和 再 次 抽取 的 过 程 中 ， 会 导致 大 
量 有 效 信息 损失 。 因 此 有 必要 改革 知识 确 权 方式 与 共享 机 制 ， 将 有 价值 研究 数据 直接 发 表 。 


1.2 综合 全 面 的 特征 量 
= 材料 数据 中 所 包含 的 特征 量 决定 了 AI 描述 现象 的 可 能 视角 。 如 果 数 据 中 仅 包含 单一 特征 量 ， 由 此 产 
二 生 的 认识 必 将 局 限于 研究 变量 与 此 特征 量 的 相互 关系 ， 而 无 法 延伸 至 除 此 特征 量 之 外 的 特征 。 一 套 能 完整 
Q 反映 材料 研究 过 程 的 特征 集 将 有 助 于 AI 对 数据 间 关 联 产生 更 精准 的 认识 。 在 传统 研究 模式 中 ， 由 于 人 类 
生活 在 三 维 空间 中 ， 人 脑 仅 可 直接 处 理 较 低 维度 的 研究 问题 ， 在 科学 推理 时 ， 经 常 采取 理想 化 的 形式 来 对 
自然 现象 进行 简化 ， 比 如 经 典 物理 学 中 经 常用 “足够 光滑 平面 ”、“ 忽 略 空气 阻力 ”、“ 理 想 气体 ”等 理 
想 化 假设 ， 去 掉 一 些 复杂 的 干扰 因素 ， 只 保留 关键 因素 进行 研究 分 析 。 在 现代 材料 科学 所 采用 的 探究 工具 
中 ， 受 限于 技术 条 件 ， 也 经 常 采用 一 些 类 似 和 手段 来 保证 科学 探究 的 可 开展 ， 比 如 “真空 条 件 ”、“ 模 拟 海 
水 腐蚀 ”等 。 这 些 简化 反映 在 数据 上 ， 就 是 对 复杂 高 维 的 现象 经 过 降 维 进行 低 维 描述 ， 以 方便 人 类 对 其 进 
行 处 理 。 当 然 ， 也 不 可 避免 地 引起 导致 了 真实 世界 与 认识 的 一 定 偏差 。 

人 工 智能 方法 的 特点 之 一 便 是 有 能 力 处 理 高 维度 的 数据 ， 这 为 探究 认识 更 真实 的 自然 世界 提供 了 新 途 
径 。 与 此 相 适 应 ，AI-ready 的 数据 集 应 包括 尽 可 能 综合 全 面 的 特征 参量 ， 以 充分 发 挥 人 工 智能 的 潜力 。 从 
工作 流程 上 看 ， 实 验 驱 动 和 计算 驱动 均 是 先 提出 可 能 的 理论 ， 再 搜集 数据 ， 并 通过 表征 或 仿真 方法 进行 验 
证 。 这 种 依赖 先 验 知识 的 做 法 有 利于 聚焦 已 知 特征 参数 进行 高 效 优化 ， 但 受 限于 当时 的 认识 水 平 ， 有 可 能 
在 无 意 中 排 除 掉 许 多 可 能 在 实际 问题 中 同样 有 意义 的 参数 。 从 而 在 实际 工作 中 限制 了 我 们 的 想象 力 B9， 寻 
致 一 些 未 知 的 关键 因素 擦 肩 而 过 。 而 数据 驱动 范式 从 理论 上 说 ， 并 不 预 设 哪些 参数 是 重要 或 不 重要 的 ， 也 
就 避免 了 对 参数 选用 的 习惯 与 偏向 。 例如 Ward 等 [0 围绕 化 学 元 素 的 计量 属性 、 统 计 属 性 、 电 子 结构 属性 、 
离子 化 合 物 属 性 等 四 个 方面 ， 创 建 了 一 组 包含 了 145 个 材料 参数 的 通用 性 特征 空间 ， 可 对 任意 化 学 元 素 组 
成 的 无 机 材料 进行 特征 表示 , 结合 各 种 机 器 学 习 模 型 和 训练 数据 , 能 够 对 材料 的 物理 、 化 学 性 能 进行 预测 ， 
并 在 晶体 的 带 际 能 量 、 比 体积 、 形成 能 预测 和 新 型 非 晶 体 的 发 现 两 个 不 同方 面 上 验证 了 其 通用 性 和 有 效 性 ; 
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同时 , 为 了 量化 每 个 特性 对 目标 性 能 的 预测 能 力 , 依次 采用 二 次 多 项 式 拟 合 方式 来 测量 模型 的 均 方 根 误差 ， 
发 现 对 于 不 同 的 材料 和 性 能 ， 影 响 其 最 佳 建 模 的 特性 参量 可 能 会 发 生 显 著 变化 。 比 如 金属 间 化 合 物 的 形成 
能 与 熔化 温度 的 变化 和 组 成 元 素 之 间 的 d 层 电子 数 最 相关 ， 而 含有 至 少 一 种 非 金属 的 化 合 物 与 平均 离子 特 
征 ( 基 于 组 成 元 素 之 间 电 负 性 差异 的 量 ) 关系 最 密切 ， 这 些 示例 中 最 相关 特性 的 变化 进一步 支持 了 构建 机 
器 学 习 特 性 集中 有 大 量 可 用 特性 的 必要 性 。 该 工作 中 所 涵盖 的 145 个 特性 虽然 无 法 完全 涵盖 无 机 材料 的 所 
有 特征 ， 但 朝 着 创建 丰富 的 材料 特性 空间 迈 出 了 一 大 步 ， 体 现 出 全 面 的 特性 空间 对 于 人 工 智能 自动 分 析 探 
索 ， 获 取 未 知 规律 的 重要 价值 。 


1.3 数据 记录 的 完整 性 

从 材料 研究 数据 的 产 出 过 程 来 看 ， 这 些 数据 中 不 仅仅 揭示 了 材料 样品 自身 的 内 在 特性 ， 也 殊 含 了 材料 

的 制备 、 表 征 、 计 算 设 施 及 处 理 流 程 等 相关 因素 的 影响 澡 ， 利 用 AI 对 研究 数据 分 析 处 理 时 ， 这 些 因素 均 

将 在 数据 所 反映 的 内 在 关联 关系 上 有 所 体现 。 在 以 工艺 优化 、 性 能 改进 等 为 目的 的 研究 中 ， 研 究 者 能 够 有 

效 的 获取 、 利 用 这 些 隐 藏 关系 的 前 提 是 数据 集中 包含 可 反映 制备 、 表 征 、 计 算 等 研究 过 程 的 完整 特征 维度 ， 

才 可 在 相应 特征 参数 上 才能 得 到 精细 化 、 定 量化 的 参考 指导 ， 并 在 计算 模拟 和 实验 中 快速 实现 。 

-一 同时 ， 任 何 制备 、 表 征 、 计 算 过 程 都 包含 了 大 量 细节 参量 ，Al-ready 的 数据 必须 对 这 些 参 量 有 足够 完 
EJ 整 的 收纳 ， 使 数据 使 用 者 对 数据 产生 的 条 件 、 环 境 、 过 程 充分 理解 ， 如 同 他 们 自身 经 历 过 一 样 ， 才 能 真正 


人 确保 对 这 些 数据 的 正确 、 合 理 使 用 。 从 当前 的 数据 采集 方式 看 ， 数 据 产生 者 主要 是 基于 自身 的 研究 目的 来 
二。 进行 材料 的 实验 制备 、 表 征 或 计算 模拟 研究 ， 记 录 每 一 条 数据 时 ， 往 往 仅 选用 一 部 分 符合 自身 研究 需求 的 
CO — “关键 参数 ”， 而 将 研究 过 程 中 产生 的 其 他 参数 直接 忽略 或 舍弃 。 这些“ 不 完整 ”的 数据 记录 经 过 发 表 被 
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科学 工作 的 可 靠 性 和 科学 数据 的 可 重用 性 ， 目 前 一 些 期 刊 开始 要 求 用 户 在 提交 预 发 表 文献 的 同时 ， 需 要 同 
时 提交 该 成 果 中 的 所 有 源 数 据 ， 如 Nature 出 版 社 旗下 的 所 有 期 刊 都 有 该 要 求 中 ， 并 鼓励 作者 将 所 有 必要 数 
据 存 储 在 公共 存储 库 中 公开 ， 并 描述 数据 获取 的 完整 途径 ， 一 些 推荐 的 公共 存储 库 包 括 Figshare[44、 
Zenodof5 和 Dryad049 等 。 考 虑 到 数据 驱动 范式 下 数据 使 用 时 空 范围 在 不 断 扩 大 ， 不 同 使 用 者 对 数据 的 利用 
视角 也 愈 发 广阔 ， 在 进行 原始 数据 采集 时 ， 需 充分 考虑 对 数据 产生 动作 相关 的 参数 做 到 “应 收 尽 收 ”， 留 
下 完整 的 数据 参量 记录 ， 为 数据 的 再 利用 提供 尽 可 能 详尽 的 信息 ， 并 为 AI 高 效 指导 材料 的 优化 设计 提供 
详尽 、 全 面 的 特征 空间 。 


— 。 14 数据 分 布 的 均衡 作 
© 如 前 所 述 ， 人 工 智能 通过 找 出 多 个 参量 问 相关 性 来 揭示 数据 内 在 规律 。 然 而 若 用 于 训练 的 数据 集 在 参 


数 空间 分 布 不 均衡 ， 将 导致 标准 模型 的 判断 结果 发 生 偏差 tr， 这 在 AI 应 用 较为 成 熟 的 商业 系统 应 用 中 较 
为 常见 ， 比 如 亚马逊 曾 放弃 了 一 个 通过 AI 来 对 求职 者 简历 进行 评分 的 智能 招聘 系统 ， 因 为 该 系统 对 女性 
应 聘 者 产生 了 不 公正 的 判断 结果 ， 出 现 这 种 偏见 的 原因 是 用 于 开发 算法 的 训练 数据 集 是 基于 与 以 前 的 申请 
人 “主要 是 男性 ) 相关 的 数据 Raol。 

类 似 地 ， 当 AI 用 于 材料 科学 探究 时 ， 若 材料 特征 数据 集中 带 有 人 为 的 偏向 ， 将 导致 模型 的 判断 结 
也 出 现 相应 的 偏向 ， 如 在 传统 方式 的 材料 科学 研究 中 ， 研 究 者 往往 只 注意 记录 与 研究 目标 相符 的 所 谓 “ 积 
极 数据 ”, 而 将 与 目标 不 符 的 “消极 数据 "直接 忽视 或 舍弃 , 这样 收 集 到 的 数据 用 于 人 工 智能 模型 训练 时 ， 
会 导致 模型 在 统计 意义 上 丢失 部 分 客观 性 ， 并 会 损失 一 些 潜在 材料 规律 的 挖掘 机 会 。 本 质 上 ， 科 学 数据 的 
所 谓 “ 好 坏 ” 是 研究 者 从 狭义 角度 进行 的 人 为 定性 ， 数 据 本 身 是 无 优 劣 之 分 的 ， 从 统计 学 角度 看 ， 在 严 并 
的 科学 条 件 设计 下 ， 每 次 材料 实验 产生 的 数据 都 是 对 材料 客观 规律 的 一 次 反映 ， 均 应 该 进行 记录 保存 ， 在 
后 续 利用 AT 进行 数据 分 析 时 ， 模 型 才能 够 全 面 客观 的 反映 材料 规律 ， 具 备 较 强 的 鲁 棒 性 和 可 扩展 性 ， 充 
分 体现 出 每 条 数据 的 潜在 价值 。 例 如 在 2016 年 发 表 的 著名 案例 中 ，Raccuglia 等 6o 在 使 用 决策 树 方法 预测 
新 的 金属 有 机 氧化 物 材 料 时 ， 在 训练 集中 同时 包括 了 之 前 的 “成 功 ”与 “失败 ”的 实验 数据 。 
1.5 数据 的 可 共享 性 

科学 数据 的 重复 利用 ， 是 关系 到 科研 文化 由 单打 独 斗 向 共享 
是 大 数据 时 代数 据 驱动 模式 的 现实 需求 。 为 构成 所 需 的 海量 、 多 


合作 的 大 科学 模式 改变 的 根本 性 要 求 ， 也 
参量 、 均 衡 分 布 的 数据 集 ， 单 一 来 源 数据 
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往往 很 难 满足 ， 需 要 将 多 个 来 源 的 离散 数据 整合 。 这 就 要 求 离散 的 单条 材料 数据 在 形式 表达 上 具备 参与 到 
大 数据 集 的 条 件 ， 满 足 使 用 者 对 数据 便捷 访问 、 使 用 的 可 共享 需求 。 

JLF, 数据 共享 受到 了 广泛 的 关注 , 我 国 十 三 五 材料 基因 工程 重点 专项 也 对 数据 汇 交 做 出 专门 规定 ， 
提出 硬性 要 求 。 美 国 2019 年 发 布 的 《联邦 数据 战略 和 2020 年 行动 计划 》50、 欧 洲 2020 年 发 布 的 《欧洲 
数据 战略 》52、 中 国 2018 年 发 布 的 《科学 数据 管理 办 法 》53] 等 ， 均 从 国家 战略 层面 制定 了 促进 科学 数据 
共享 的 配套 政策 和 实施 方案 支持 。 在 一 些 具 体 科 学 领域 ， 也 部 署 了 促进 数据 共享 的 强制 性 措施 ， 比 如 美国 
国立 卫生 研究 院 (NIB) MEM, B 2023 年 1 月 起 , 将 要 求 其 每 年 资助 的 30 万 名 研究 人 员 和 2500 家 机 
构 中 的 大 多 数 在 其 拨款 申请 中 纳入 数据 管理 计划 , 并 最 终 公 开 其 研究 数据 。 数据 共享 已 在 科学 界 形成 共识 。 

然而 ， 一 直 以 来 ， 科 学 数据 大 多 存储 在 本 地 服务 器 上 ， 且 缺乏 明确 一 致 的 管理 规范 ， 不 同 来 源 的 数据 
在 表达 格式 、 表 述 完 整 性 上 参差 不 齐 ， 使 得 数据 既 不 容易 访问 ， 也 不 容易 集成 利用 ， 共 享 效益 较 低 。 围 绕 
科学 数据 如 何 能 被 更 广 范 和 更 充分 的 利用 这 一 问题 ， 国 际 科学 界 已 经 探讨 多 年 65565949，2016 年 ， 和 荷兰 莱 顿 
大 学 的 Barend Mons 教授 联合 学 术 界 、 产 业界 、 资 助 机 构 和 学 术 出 版 商 等 一 系列 数据 利益 相关 行业 的 代表 ， 
共同 设计 认可 了 一 套 简明 且 可 衡量 的 数据 管理 原则 一 一 FAIR CFindable (PRIL) , Accessible (可 获取 ) , 

Interoperable (可 互 操 作 ) ，Reusable《〈 可 再 利用 ) ) 原则 B59， 用 于 在 更 广 范 围 提 升 数据 的 可 共享 性 和 可 重 
~ FAME. FAIR 原则 得 到 了 科学 界 的 广泛 认可 ， 一 些 新 型 数据 共享 基础 设施 建设 正在 基于 FAIR 原则 进行 建设 
PSIG, FAIR 原则 的 基本 要 求 可 以 总 结 如 下 : 
m 可 发 现 (Findable) 原则 针对 AT 研究 所 需 的 目标 特征 研究 数据 从 何 处 查询 、 用 什么 来 查询 的 问题 提出 ， 
= 要 求 数据 被 唯一 且 持 和 久 的 标识 符 进行 标识 ， 其 典型 代表 为 DOI KZ (Digital object identifier system) 199], 
© 能 够 在 公共 互联 网 空间 通过 系统 分 配 的 唯一 数据 标识 ， 为 数据 对 象 提供 一 种 解析 访问 方法 ， 找 到 目标 数据 
2: 的 所 在 存储 位 置 ， 同时 要 求 用 丰富 的 元 数据 来 描述 数据 ， 并 将 其 在 可 检索 的 数据 资源 平台 中 注册 或 设置 索 
引 ， 使 查询 者 能 够 通过 数据 的 特征 属性 来 对 目标 数据 进行 精确 检索 ， 满 足 了 目标 数据 能 够 被 使 用 者 查询 型 
的 基本 要 求 。 

可 获取 (Accessible) 原则 对 于 所 查询 到 的 目标 数据 如 何 获 取 的 问题 ,对 数据 的 获取 方式 进行 了 最 低 实 
现 程度 的 规定 ， 要 求 在 开放 、 免 费 、 可 普遍 实施 的 标准 化 通信 协议 下 检索 数据 及 其 元 数据 ， 使 得 数据 能 够 
通过 网 络 基 础 设施 免费 、 简 捷 的 进行 传递 ; 涉及 到 数据 获取 过 程 中 的 知识 权益 问题 ， 允 许 数据 所 有 者 设置 
数据 获取 权限 ， 在 必要 时 对 数据 使 用 者 进行 身份 验证 和 授权 流程 ， 在 尊重 数据 所 有 权 归 属 的 基础 上 鼓励 数 
据 的 开放 ;同时 要 求 描述 数据 基本 信息 的 元 数据 应 能 够 持久 访问 ， 即 便 数据 对 象 因为 各 种 原因 变更 而 不 可 
访问 ， 保 证 数据 所 携带 的 信息 能 在 最 低 限度 上 被 稳定 的 获取 到 ; 此外， 可 再 利用 《〈Reusable) 原则 要 求 在 
数据 发 布 时 应 包含 清晰 且 可 访问 的 数据 使 用 许可 要 求 ， 为 数据 能 够 被 正确 的 访问 获取 提供 明确 的 注解 提示 。 

可 互 操作 〈Interoperable) 原则 要 求 数据 使 用 正式 、 可 访问 、 可 共享 和 广 范 适 用 的 语言 来 描述 数据 ， 其 
中 所 涉及 到 的 词汇 应 从 符合 FAIR 原则 的 词汇 表 中 或 已 有 的 权威 术语 中 来 选择 ， 从 而 使 其 表达 形式 在 领域 
内 具有 通用 性 ， 避 免 不 同 来 源 数据 集成 时 在 数据 语义 、 格 式 上 的 不 兼容 ， 使 得 不 论 是 人 类 或 机 器 均 可 方便 
的 对 数据 进行 处 理 ， 为 AI 应 用 建立 一 套 领域 共识 的 可 理解 语言 机 制 。 

对 于 非 自身 产生 的 数据 ， 在 AI 模型 构建 时 如 何 完整 理解 和 正确 使 用 这 些 数据 的 问题 ， 可 再 利用 
(Reusable) 原则 要 求 用 多 个 准确 且 相 关 的 元 数据 来 描述 数据 ， 这 些 元 数据 应 与 数据 的 详细 出 处 相关 ， 且 
在 表达 组 织 上 符合 本 领域 相关 的 标准 ， 使 得 使 用 者 能 够 尽 可 能 详细 的 了 解 到 数据 的 背景 和 内 容 组 成 ， 促 使 
其 能 被 合理 利用 。 可 再 利用 原则 充分 考虑 了 非 数据 产生 者 在 完整 理解 数据 时 所 应 具备 的 内 容 要 求 ， 为 AI 
模型 所 需 多 来 源 数据 的 正确 理解 、 使 用 和 模型 解释 、 应 用 提供 可 靠 性 保障 。 


2 Al-Ready 材料 数据 的 实现 


2.1 材料 数据 的 标准 化 治理 

Al-ready 对 材料 数据 的 海量 、 全 面 、 完 整 、 均 衡 、 可 共享 需求 ， 反 映 了 数据 驱动 研究 范式 下 的 新 型 数 
据 生态 特点 。 其 中 数据 完整 性 和 可 共享 性 ， 是 单条 数据 的 特性 ， 可 以 通过 标准 化 方式 得 到 保障 。 标 准 化 是 
为 在 既定 范围 内 获得 最 佳 秩序 ,促进 共同 效益 ,对 现实 问题 或 潜在 问题 确立 共同 使 用 和 重复 使 用 的 条 款 以 及 
编制 、 发 布 和 应 用 文件 的 活动 kJ。 现实 中 的 材料 数据 履 盖 材料 研发 的 全 链条 ， 从 电子 、 原 子 、 分 子 现象 ， 


= 


nea 


多 尺度 下 工艺 条 件 对 材料 性 能 与 服役 表现 的 影响 ， 直 至 应 用 设计 与 制造 技术 的 细节 。 管 理 这 样 海量 且 多 元 
的 数据 需要 全 领域 的 协调 建立 共同 的 规则 ， 从 而 无 颖 地 实现 数据 的 交换 与 共享 ， 实 现 Al-ready 的 目标 。 传 
统 材 料 数 据 库 一 般 收 集 由 原始 数据 处 理 而 得 到 的 分 析 结 果 《〈 如 各 种 材料 性 能 参数 等 ) ， 而 原始 数据 通常 分 
散在 实验 者 手中 ， 不 被 收录 ， 且 数据 格式 五 花 八 门 ， 不 便 为 其 他 人 再 次 利用 。 再 有 ， 这 些 数据 产生 时 往往 
以 特定 应 用 为 目标 ， 包 含 的 材料 属性 相对 有 限 ， 缺 乏 综合 性 。 这 样 ， 数 据 可 关联 的 参数 就 比较 有 限 。 这 与 
传统 材料 研究 方式 与 数据 产生 方式 有 着 极 大 关系 。 因 此 现 有 的 材料 数据 库 大 多 不 能 满足 材料 基因 工程 的 需 
要 。 在 数据 驱动 前 提 下 ， 有 必要 通过 顶层 设计 ， 提 出 建立 符合 Already 要 求 的 材料 数据 结构 的 通用 规则 ， 
用 于 规范 ALready 数据 的 内 容 组 成 。 
数据 标准 为 AI-ready 数据 库 ( 集 ) 的 构建 提供 了 重要 的 保障 措施 。 材 料 数 据 具 有 数量 大 、 种 类 多 、 形 
式 多 样 、 产 出 单位 各 异 、 知 识 产 权 归 属 复杂 等 特点 ， 如 果 没 有 统一 的 标准 可 以 遵循 ， 不 仅 收 录 存 储 更 加 复 
杂 ， 也 不 便 使 用 。 在 当今 多 种 数据 基础 设施 共存 的 条 件 下 ， 某 种 形式 的 标准 化 是 实践 数据 驱动 范式 所 必 不 
可 少 的 的 。 因 此 建立 统一 的 数据 标准 是 围绕 数据 的 规范 化 治理 所 开展 的 关键 措施 ， 为 材料 领域 大 规模 采用 
人 工 智能 方法 奠定 重要 基础 。 


J= 2.1.1 Al-Ready 数据 标准 化 的 内 容 
元 数据 是 一 种 较为 直观 的 数据 组 织 管理 方式 。 元 数据 通常 被 定义 为 关于 数据 的 数据 ， 本 质 上 是 从 某 个 
角度 对 数据 对 象 进行 结构 化 描述 的 一 种 形式 。 例 如 对 某 个 人 进行 描述 可 以 通过 姓名 、 人 性 别 、 身 高 、 年 龄 、 
性 格 等 众多 元 素 进行 描述 。 从 特定 角度 反映 数据 对 象 所 具有 的 特征 ， 需 要 选择 相关 元 素 组 合 形成 特定 的 元 
= 数据 模式 。 标 准 化 就 是 以 在 一 定 社会 范围 内 取得 共识 的 方式 来 规范 元 数据 模式 中 所 涵盖 的 内 容 。 在 数据 驱 
= 动 模式 下 ， 元 数据 是 数据 检索 和 人 工 智 能 分 析 的 实际 载体 。 数 据 的 完整 性 和 可 共享 性 可 以 通过 在 标准 元 数 
据 模 式 中 包含 相应 的 元 素来 得 到 保证 。 由 于 材料 体系 复杂 ， 种 类 众多 ， 为 材料 科学 开发 信息 丰富 、 详 尺 
N 适应 性 强 的 标准 化 元 数据 是 一 个 突出 的 挑战 吧 。 目前 在 材料 元 数据 标准 建设 方面 , 国际 上 尚 处 于 起 步 阶段 ， 
现 有 的 元 数据 标准 不 是 完全 缺失 就 是 不 完整 ， 标 准 组 织 (如 国际 标准 组 织 CISOO ) 为 提供 受 控 词汇 表 、 数 据 
N 格式 和 数据 处 理 等 元 数据 规范 化 相关 的 标准 进行 了 许多 尝试 ,但 到 目前 为 止 还 没有 在 领域 范围 内 得 到 采用 
[63], 

本 体 (Ontology) 是 对 “共享 概念 模型 明确 的 、 ERE, UG CHA " [41 CAn ontology is a formal, explicit 
specification of a shared conceptualisation) 。 本 体能 够 描述 某 个 领域 内 的 特定 概念 体系 及 其 中 各 元 素 之 间 的 
确定 关系 。 在 实际 构建 层面 ， 本 体 本 身 并 没有 定义 其 表现 形式 ， 可 通过 OWL、DAML、RDFS、IDEF5 等 
多 种 语言 表示 [61]， 将 本 体 设计 转化 为 计算 机 可 处 理 的 模式 ， 目 前 较为 常用 的 本 体 语言 是 OWL 语言 (Web 
© Ontology Language) 。 各 类 本 体 在 表达 结构 上 具有 相似 性 ， 均 采用 概念 〈 也 称 为 类 ) 、 实 例 、 属 性 、 关 系 、 

约束 等 基本 构造 元 素来 进行 更 具体 的 描述 [51。 举 例 来 说 , 我 们 在 描述 45# 钢 材料 “ 抗 拉 强 度 ” 和 “延伸 率 ” 
等 数据 “属性 ”时 ， 这 个 概念 体系 包括 : “材料 ”是 一 个 “类 ”， 代 表 所 有 类 型 的 材料 ， 在 “材料 ”中 还 
可 分 “金属 材料 ”、“ 无 机 材料 ”、“ 高 分 子 材料 ”等 子 类 (“ 子 类 ”代表 了 它们 之 间 的 “关系 ”) ，“ 钢 
铁 材料 ”又 是 “金属 材料 ”的 子 类 ; “45# 钢 ”是 “钢铁 材料 ”中 的 一 个 具体 实例 ; 这 个 实例 具有 “ 抗 拉 
强度 ”和 “延伸 率 ” 等 多 种 “属性 ”， 而 抗 拉 强度 460MPa， 延 伸 率 17%” 定 义 了 “45# 钢 ”这 个 实例 的 两 
个 属性 值 。 再 有 ，“ 铁 素 体 钢 ” 可 以 定义 为 一 种 包含 至 少 一 种 铁 素 体 组 织 的 钢 ， 我 们 可 以 用 材料 本 体 中 的 
“ 钢 ”、“ 铁 素 体 ”和 “基本 组 织 ” 之 间 的 关系 来 约束 定义 “ 铁 素 体 钢 ” 这 一 概念 694， 这 种 约束 令 数据 对 
人 类 和 计算 机 均 有 意义 ， 是 建立 计算 机 对 概念 体系 进行 自动 推理 的 基础 。 本 体 与 元 数据 均 是 描述 数据 资源 
的 工具 ， 二 者 均 通 过 概念 ， 或 者 说 术语 来 对 对 象 所 包含 的 特征 进行 表示 ， 区 别 在 于 元 数据 通过 树 状 形式 来 
组 织 这 些 术 语 ， 在 表达 上 更 加 模块 化 和 直观 简洁 ;而 本 体 通过 网 状 形式 来 表示 ， 更 加 凸显 这 些 术语 的 相互 
联系 ， 为 数据 资源 的 理解 和 利用 提供 语义 背景 。 它 们 之 间 可 通过 其 所 包含 的 术语 及 其 关系 进行 相互 转化 。 
标准 元 数据 模式 可 以 被 表达 为 在 一 个 学 科 范 围 内 定义 的 一 套 表述 规范 、 相 互 关 联 的 一 个 通用 概念 体系 ， 其 
中 的 元 数据 元 素 根 据 其 在 概念 体系 中 的 逻辑 关系 ， 可 以 看 成 是 体系 中 不 同 概念 的 构造 元 素 ， 因 此 本 体 可 以 
用 于 描述 、 反 映 元 数据 元 素 间 的 关系 。 
在 材料 科学 中 , 现 有 材料 本 体 是 对 材料 、 材 料 性 质 、 单 位 和 约束 条 件 及 其 相互 关系 的 一 种 分 类 方案 [@]。 
标准 化 材料 本 体 的 建立 将 为 材料 领域 内 研究 者 提供 一 个 共享 的 标准 概念 体系 ， 促 进 领域 内 不 同 研究 者 对 同 


类 数据 描述 、 管 理 的 规范 化 协同 ， 提 升 数据 间 的 互 操作 性 。 多 个 异 构 数据 库 之 间 的 数据 交换 可 以 方便 地 通 
过 基于 材料 本 体 的 中 间 数 据 表示 来 实现 。 随 着 本 体 的 采用 范围 扩大 ， 还 将 释放 机 器 自动 推理 、 挖 掘 海量 材 
料 数 据 间 所 隐 含 知识 关联 的 潜力 。 目 前 ， 有 关 材 料 科 学 的 本 体 建 设 刚 刚 开 始 ， 距 离 履 盖 完 整 的 知识 体系 还 
有 很 大 差距 。 同 时 ， 各 种 各 样 的 本 体 和 不 太 正 式 的 标准 相互 竞争 []。 如 NOMAD Meta-infol??, ESCDFI 
和 OpenKIMIS 是 原子 材料 科学 中 对 计算 结果 进行 分 类 的 初期 尝试 ，PLINIUSI 人 1 用 于 陶瓷 领域 ， 
ONTORULE[70] 用 于 钢铁 行业 , SLACKS H FEER AHE, PIFI, Ashino?!, EMMOCU"?!, MatOntoU?!, 
Premap"8 fll. MatOWLI "I 代表 一 般 材 料 科 学 数据 ， 等 等 。 还 没有 出 现 确 保 材料 完 整 表 示 的 标准 化 本 体 。 虽 
然 材 料 本 体 的 发 展 过 程 已 经 加 快 ， 但 它们 还 没有 像 其 他 领域 《如 生物 科学 ) 那样 成 熟 94， 在 工业 应 用 中 ， 
这 些 公开 可 用 的 本 体 通 常 是 不 够 用 的 ， 这 迫使 商业 公司 创建 自己 内 部 的 、 特 定 使 用 范围 的 本 体 [ 鸣 。 


2.1.2 材料 数据 标准 的 国内 外 现状 
近 几 年 , 材料 信息 学 领域 已 经 开始 广泛 认识 并 重视 数据 标准 化 的 重要 性 [HG163167078。 但 在 实际 操作 
中 ， 建 立 并 推广 标准 是 一 件 耗 时 费力 的 工作 。 尤 其 是 在 数据 库 基 础 较 好 的 国家 ， 形 成 各 家 共识 本 和 里 就 似乎 
是 一 件 不 可 完成 的 使 命 。 为 了 应 对 快速 积累 大 量 数据 的 需求 ， 以 美国 国家 标准 与 技术 研究 院 NIST) 为 代 
T 表 的 机 构 采 用 了 数据 仓库 的 做 法 ， 即 不 限制 材料 数据 的 格式 ， 将 数据 尽量 多 地 收纳 存储 起 来 ， 以 待 今后 进 
一 步 开 发 工具 进行 整理 、 分 析 和 挖掘 。 数 据 仓库 的 形式 对 于 解决 数据 量 瓶 颈 问题 是 个 短平快 的 方案 ， 同 时 
也 是 对 缺乏 数据 标准 现状 的 一 种 妥协 。 随 机 技术 和 标准 的 进步 , 后 期 固然 可 以 对 数据 做 一 些 标准 化 的 规整 ， 
但 原始 数据 中 本 身 缺 失 的 信息 是 无 法 通过 事后 弥补 的 。 因 此 需要 尽量 一 开始 就 标准 化 。 
= 欧美 国家 注重 对 既 有 数据 与 数据 系统 的 利用 ， 尽 力 通过 建立 整套 材料 科学 本 体 ， 改 善 多 源 异 构 数据 的 
— 可 互 操作 性 , 但 这 种 元 数据 协调 方式 仍 需 开 发 数据 转换 器 和 共享 数据 模式 。 欧 洲 的 新 材料 发 现 NOMAD) 
- 实验 室 专注 于 收集 、 存 储 、 清 理 计算 材料 学 的 数据 ， 例 如 他 们 可 以 直接 存储 世界 上 主流 的 10 多 种 从 头 计 
CN 算 代码 产生 的 原始 数据 , DA ea I AC BRE s B) 23 12318 Ji RC UE AN M XE a tf BA SO), FAIR mat?! 
是 德国 国家 研究 数据 基础 设施 (NFDI，https://nfdi.de) 支 持 建设 的 数据 联盟 组 织 ， 将 为 材料 领域 许多 特定 的 
N 数据 存储 库 构 建 一 个 联合 基础 设施 ， 所 有 参与 的 团体 或 机 构 将 使 用 统一 的 框架 管理 其 数据 ， 即 在 计算 、 管 
~ 理 和 存储 中 共用 一 个 中 央 元 数据 存储 库 。 由 于 不 同 子 领 域 不 同 主题 的 元 数据 存在 差异 ， 在 管理 时 采用 自 下 
< 而 上 的 分 层 方式 ， 提 取 其 共性 元 数据 元 素 到 上 层 中 作为 公共 属性 ， 比 如 材料 的 成 分 及 研究 方法 ， 由 此 形成 
一 个 类 似 购物 网 站 似 的 层 层 递 进 的 数据 组 织 和 查阅 模式 ， 基 于 这 些 元 数据 形成 一 个 材料 数据 描述 的 百科 全 
书 ， 可 同时 支持 非 专 家 用 户 的 普通 查询 和 专家 用 户 的 特定 需求 查询 。FAIRmat 已 经 开始 为 不 同 领域 中 使 用 
的 词汇 的 数字 翻译 建立 元 数据 和 词典 ， 下 一 步 是 开发 本 体 ， 建 立 元 数据 之 间 的 上 述 层 级 及 其 他 关系 描述 ， 
名 之 后 将 标准 元 数据 和 本 体 部 署 到 电子 实验 室 记录 本 ELN) 和 实验 室 信息 管理 系统 LIMS) 中 ， 实 现 不 同 
团体 所 采集 和 存储 数据 的 可 互 操作 性 。 这 种 自 下 而 上 的 元 数据 规范 化 工作 模式 使 得 FAIRmat 在 连接 新 的 子 
域 时 具有 较 高 的 灵活 性 ， 但 这 种 元 数据 协调 方式 需要 开发 数据 转换 器 和 共享 数据 模式 。 这 种 元 数据 协调 方 
案 的 一 个 具体 例子 是 Open Databases Integration for Materials Design (OPTIMADE) [9] 联 盟 最 近 发 布 的 首 
个 版 本 API， 通 过 该 API 允许 用 户 访问 参与 该 联盟 的 各 数据 库 元 数据 模式 项 的 公共 子 集 ， 实 现 对 分 布 式 数 
据 库 的 统一 访问 。 
我 国 在 开展 材料 基因 工程 方法 探索 与 研究 的 早期 , 便 认识 到 标准 的 重要 性 。2017 年 在 中 国 材料 试验 标 
准 委员 会 (CSTM) 成 立 之 时 ， 我 国 科 学 家 前 脆性 地 便 提出 成 立 CSTM 材料 基因 领域 标准 化 委员 会 ， 这 是 
国际 上 第 一 个 材料 基因 工程 领域 的 标准 委员 会 ， 率 先 开展 材料 基因 工程 领域 标准 与 标准 化 的 重要 探索 与 示 
范 。2017 年 11 月 22 日 , 在 第 一 届 材 料 基因 工程 高 层 论坛 期 间 , CSTM 材料 基因 领域 标准 化 委员 会 (CSTM 
FC-97) 正式 成 立 ， 下 设 通 则 、 计 算 、 制 备 、 表 征 、 数 据 、 应 用 6 个 技术 委员 会 ， 分 别 负责 对 材料 基因 组 
的 研究 、 开 发 、 应 用 等 各 领域 的 材料 产品 、 材 料 工 艺 方法 、 材 料 试 验方 法 、 材 料 试验 技术 评价 方法 、 材 料 
评价 方法 、 材 料 模型 和 软件 、 材 料 计 算 、 材 料 数据 规范 、 材 料 领域 管理 和 工作 标准 的 团体 标准 体系 建设 工 


ei 


— 


考虑 到 材料 基因 工程 以 数据 为 核心 的 特点 ，FC-97 委员 会 确定 将 材料 相关 标准 制定 围绕 数据 展开 。 目 
前 国际 上 尚 无 现成 的 材料 基因 工程 数据 标准 可 以 借鉴 。 参 考 国 际 上 材料 数据 标准 建设 中 的 实际 情况 ， 并 结 
合 中 国 材料 研发 领域 特点 与 制度 优势 ，FC-97 提出 的 标准 化 总 体 建设 方针 是 : 通过 顶层 设计 ， 建 立 一 个 面 
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材料 数据 的 全 生命 周期 各 个 环节 所 涉及 的 技术 、 流 程 与 功能 , 规范 数据 条 目 必 须 收 集 的 内 容 与 遵循 的 格式 、 
协议 、 规 定 ， 使 获得 、 存 储 与 使 用 的 材料 数据 都 满足 ALready， 符 合 数据 驱动 模式 的 要 求 。 

首先 ，FC-97 选择 在 CSTM 平台 上 从 建立 数据 通用 规则 入 手 ， 基 于 最 大 化 满足 数据 的 FAIR 原则 这 个 
基本 出 发 点 ， 确 立 数据 条 目 中 所 包含 内 容 的 原则 。2019 年 8 月 ，CSTM 发 布 了 由 国内 30 余 家 材料 研究 主 
体 单位 共同 制定 的 世界 范围 内 首 个 关于 材料 基因 工程 数据 的 团体 标准 一 T/CSTM 00120《 材 料 基 因 工 程 数据 
通则 》《【 简 称 《 通 则 》) 四，《 通 则 》 跳 出 了 材料 及 分 工 多 样 性 对 标准 工作 开展 的 限制 ， 从 数据 层面 切入 ， 
提出 一 套 兼容 性 极 强 的 材料 数据 分 类 框架 。 如 图 2 所 示 ，《 通 则 》 针 对 材料 科学 在 数据 驱动 模式 下 对 数据 
的 需求 ， 将 数据 分 为 样品 信息 、 原 始 数据 〈 未 经 处 理 的 表征 数据 ) 与 衍生 数据 〈 经 分 析 处 理 得 到 的 数据 ) 
三 类 ， 这 里 ， 样 品 可 以 是 实验 产生 的 实物 ， 也 可 以 是 经 计算 产生 的 虚拟 物 。 同 理 ， 原 始 数据 可 以 来 自 于 表 
征 或 是 直接 的 测量 ， 也 可 以 通过 模拟 计算 产生 。 注 意 ， 这 里 每 条 数据 以 单个 操作 (样品 制备 /表征 /计算 / 数 
据 处 理 ) 为 单位 ， 仅 收集 与 该 操作 相关 的 内 容 。 例 如 ， 关 于 样品 信息 的 一 条 数据 中 只 包含 关于 该 样品 制备 
的 信息 ， 而 不 包含 对 该 样品 进行 表征 的 内 容 。 对 每 条 数据 分 别 赋 予 独立 且 永 久 资源 标识 (例如 依据 国标 
GB/T 32843 等 规则 ， 也 可 依据 任何 独立 赋予 的 唯一 且 永 久 的 标识 体系 ) 。 
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图 2 《通则 》 对 材料 数据 类 别 的 划分 及 其 内 容 的 规定 
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《通则 》 的 设计 重点 解决 三 个 问题 : 其 一 ， 原 始 数据 《未 经 分 析 处 理 的 数据 ) 中 包含 大 量 的 信息 ， 它 
的 多 次 利用 ， 特 别 为 不 同 的 目的 多 次 利用 是 数据 可 再 利用 性 的 重要 保障 。 目 前 原始 数据 大 多 分 散在 产生 者 
手中 ， 不 被 收录 ， 极 大 地 限制 了 数据 的 再 利用 。 这 样 的 分 类 从 制度 上 确保 原始 数据 被 记录 下 来 ， 从 而 保证 
了 被 再 次 利用 的 可 能 。 其 二 ， 传 统 数据 目前 以 数据 产生 者 视角 将 成 分 -结构 -工艺 -性 能 间 关 系 一 体式 组 织 呈 
现 ， 从 形式 上 就 限制 了 数据 应 用 的 领域 范围 ， 不 利于 应 用 面 开 拓 。《 通 则 》 将 数据 条 目 内 容 单元 定 为 单个 
动作 《〈 制 备 / 表 征 / 处 理 ) ， 在 保障 丰富 的 元 数据 前 提 下 ， 单 条 数据 可 依据 自身 信息 独立 的 流通 使 用 ， 方 便 
地 参与 到 使 用 者 多 元 视角 的 材料 探究 中 ， 在 不 同 研究 目的 、 情 境 下 灵活 自由 的 组 合 、 重 复 使 用 。 

其 三 ， 将 样品 单独 列 为 一 类 数据 是 之 前 任何 其 它 数据 中 都 没有 的 做 法 。 这 样 做 的 最 大 优点 是 使 样品 本 
身 成 为 符合 FAIR 原则 的 公共 社会 资源 ， 便 于 样品 以 数字 代理 形式 共享 、 多 用 和 重复 使 用 。 除 此 之 外 ， 还 
有 以 下 几 点 重要 考量 : 1) 避免 在 表征 元 数据 和 衍生 数据 中 包含 过 大 且 重 复 的 样品 信息 所 导致 的 数据 处 理 
负担 ， 特 别 是 衍生 数据 中 可 能 大 到 不 可 接受 20 样品 单独 立项 的 前 提 假 设 是 每 个 样品 都 是 与 众 不 同 的 个 
体 ， 即 便 是 两 个 表 观 参数 完全 相同 的 样品 ， 其 反映 的 重复 性 在 材料 数据 科学 中 是 具有 统计 意义 的 。 传 统 数 
据 库 以 一 个 样品 作为 同名 样品 的 代表 ， 实 际 上 假设 了 所 列 参数 是 给 定 材料 的 特征 值 ， 客 观 上 抹杀 了 由 细节 
因素 带 来 的 差别 。 
目前 ， 基 于 《通则 》 原 则 的 材料 基因 工程 术语 标准 、 数 据 标识 标准 、 数 据 通用 规范 等 一 系列 规则 性 通 
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程 与 方法 参考 ， 以 更 具体 的 服务 数据 标准 化 工作 建设 。 例 如 ， 充 分 的 元 数据 是 数据 再 利用 的 基础 条 件 ， 是 
Al-ready 要 求 中 的 重要 组 成 部 分 ， 目 前 材料 数据 收录 的 元 数据 通常 很 不 完整 ， 达 不 到 AI-ready 的 要 求 ， 
此 ， 在 数据 通用 规范 中 将 明确 规定 ， 在 具体 标准 中 必须 本 着 应 收 尽 收 原则 ， 收 集 足 够 的 元 数据 。 在 目前 阶 
段 ， 由 于 数据 /元 数据 产生 /收集 过 程 使 用 的 软 、 硬 件 没有 考虑 到 应 收 尽 收 的 需求 ， 要 完成 这 样 的 动作 必然 
伴随 着 大 量 的 手工 记录 与 录入 ， 致 使 数据 管理 占用 大 量 时 间 与 精力 ， 实 施 者 不 胜 其 烦 ， 不 可 避免 地 产生 懈 
仍 甚 至 抵触 情绪 ,解决 这 一 矛盾 的 关键 在 于 尽快 完成 数据 标准 化 , 并 将 标准 规则 贯彻 于 软 、 硬 件 的 配置 中 。 
随 高 通 量 实验 与 计算 技术 的 发 展 ,数据 产生 /收集 过 程 必 将 实现 全 面 自动 化 , 这 个 问题 也 将 必然 逐步 弱化 直 
至 消失 。 为 此 ， 一 些 基 于 实验 设备 或 计算 软件 数据 产生 特点 的 工作 流 控 制 软件 系统 被 开发 出 来 ， 比 如 美国 
NIST 开发 了 一 套 电 子 显微镜 实验 室 信息 管理 系统 一 NexusLIMSIS]， 可 以 将 用 户 使 用 Nexus 电子 显微镜 时 
间 段 内 所 产生 的 所 有 数据 和 元 数据 ， 都 打包 到 一 个 表示 实验 快照 的 结构 化 文本 文档 中 ， 实 现 所 有 原始 研究 
数据 自动 备份 和 归档 存储 ， 同 时 构建 了 一 个 基于 网 络 的 门户 网 站 ， 用 户 可 按 日 期 、 用 户 、 仪 器 、 样 本 或 任 
何其 他 元 数据 参数 搜索 访问 之 前 的 实验 记录 。 计 算 材料 领域 由 于 其 天 然 的 规范 化 和 数字 化 特征 ， 也 开发 了 

多 个 围绕 材料 计算 而 开发 的 自动 化 数据 工作 流 管理 软件 ， 包 括 Fireworks, AFLOW Tl, Atomatels®l, 
a AiiDA[S7 等 ， 可 实现 计算 数据 的 自动 化 采集 和 存储 管理 ， 在 数据 完整 收集 上 具有 相对 优势 。 进 一 步 地 ， 对 
全。 ”于 通用 的 制备 、 表 征 、 计 算 技 术 、 方 法 、 流 程 应 建立 统一 的 数据 模板 ， 即 数据 标准 ， 使 得 这 些 数 据 可 以 方 
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c 自 《 通 则 》 发 布 以 来 ， 一 系列 围绕 特定 研究 方法 的 示范 性 数据 标准 工作 也 正在 积极 开展 。 在 “材料 基 
© 因 工 程 关键 技术 与 支撑 平台 ”国家 重点 专项 的 支持 下 ， 依 据 《 材 料 基 因 工 程 数据 通则 》 要 求 ， 构 建 了 离子 
= 束 溅 射 沉 积 样品 元 数据 标准 化 模板 ， 并 建设 在 国家 材料 基因 工程 数据 汇 交 与 管理 平台 
Chttp://nmdms.ustb.edu.cn) ， 已 被 用 于 日 常 的 科研 数据 管理 中 ; 在 “云南 省 稀 贵 金属 材料 基因 工程 ”重大 
科技 专项 支持 下 ， 围 绕 稀 贵金属 材料 研究 过 程 的 数据 标准 化 工作 正在 进行 中 ， 并 在 此 基础 上 构建 了 一 个 大 
型 的 贵金属 材料 专业 数据 库 〈(http://ipm-int.matclouds.com) 。 基 于 DFT 方法 的 材料 热 性 能 计算 数据 的 标准 
业已 完成 91。 此 外 ， 结 合 高 速 列车 车 轮 车 轴 产 业 化 国家 重点 工程 与 综合 领域 共同 制定 了 若干 大 尺寸 构件 全 
域 高 通 量 原 位 统计 映射 表征 技术 标准 ， 以 材料 基因 工程 创新 方法 为 评价 相关 材料 构件 的 质量 提供 了 科学 文 
撑 ， 现 已 申请 立项 13 项 ， 提 出 立项 计划 30 多 项 。 相 关 工 作 涵 盖 了 数据 的 产生 、 采 集 、 存 储 、 共 享 和 利用 
等 环节 ， 正 在 中 国 材 料 与 试验 团体 标准 委员 会 材料 基因 工程 领域 委员 会 成 员 单 位 中 积极 推进 。CSTM 标准 
系统 将 确保 材料 基因 工程 研究 活动 及 其 成 果 的 具有 引领 性 、 规 范 性 、 准 确 性 、 高 效 性 和 可 复 现 性 ， 而 材料 
基因 工程 标准 化 的 创新 驱动 ， 必 将 为 材料 产业 高 质量 发 展 提供 强 有 力 的 支撑 。 


2.1.3 材料 数据 标准 体系 
完整 的 ALready 材料 数据 生态 需要 通过 构建 完整 的 数据 标准 体系 来 保证 。《 通 则 》 为 AI-ready 材料 数 
据 的 标准 化 建立 了 基点 、 指 明了 方向 ， 也 被 用 于 更 广泛 意义 上 的 材料 数据 标准 设立 所 遵循 的 基本 原则 
[5081182088], 材料 数据 纷繁 复杂 ， 以 《通则 》 为 核心 的 数据 标准 化 工作 采取 了 一 种 自 上 而 下 与 自 下 而 上 相 
结合 的 工作 模式 。 首先 , 从 顶层 设计 出 发 提出 一 套 全 面 履 盖 材 料 数据 相关 的 方方面面 问题 的 标准 体系 构架 ， 
对 需要 建立 的 标准 进行 了 整体 规划 。 在 实 操 中 依据 标准 体系 框架 ， 发 动 各 方面 专家 ， 发 挥 各 自 专 业 特 长 ， 
以 《通则 》 为 核心 指导 原则 ， 从 具体 问题 入 手 ， 逐 步 建 立 各 类 数据 标准 细则 。 材 料 基因 工程 数据 标准 体系 
框架 如 图 3 所 示 ， 从 内 容 上 可 以 划分 为 五 个 板块 。 
e ”基础 通用 标准 对 材料 数据 的 通用 性 要 求 进行 明确 。 其 中 《通则 》 对 材料 数据 的 标准 化 工作 目标 、 内 容 
提供 总 体 设 计 和 规划 。 材 料 基因 工程 术语 标准 、 数 据 标 识 标准 、 数 据 通用 规范 等 标准 ， 将 《通则 》 的 
对 数据 的 各 项 通用 要 求 具体 化 ， 如 前 所 述 ， 分 别 为 各 类 研究 方法 的 数据 标准 制定 提供 权威 术语 、 标 识 
方法 、 标 准 化 流程 与 方法 参考 ， 以 更 具体 的 服务 、 指 导数 据 标 准 化 工作 的 整体 性 建设 ， 目 前 这 三 项 通 
用 标准 正 处 于 审核 修订 过 程 EoI&0[82]。 
e 实验 数据 和 计算 数据 是 有 关 材 料 数据 产生 的 两 个 板块 。 相 应 的 标准 从 材料 数据 生产 者 的 角度 出 发 ， 规 
定 各 种 实验 或 计算 方法 产生 的 数据 条 目 中 应 包含 的 内 容 。 在 具体 执行 上 ， 需 要 重点 关注 三 个 方面 : 数 
据 分 类 、 标 准 建设 粒度 和 标准 化 内 容 。 首先, 依据 《通则 》 对 材料 数据 的 分 类 , 按照 实验 制备 /计算 ( 虚 
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拟 ) 制备 、 实 验 表 征 /计算 表征 、 数 据 分 析 几 种 数据 产生 过 程 ， 将 数据 划分 为 样品 信息 、 原 始 数据 和 衍 
生 数 据 三 类 。 其 次 ， 每 件 标准 以 可 独立 存在 的 数据 产生 动作 样品 制备 /表征 /计算 /数据 处 理 ) 为 条 目 
主题 ， 以 该 动作 样品 制备 /表征 /计算 /数据 处 理 ) 所 采用 的 具体 方法 为 载体 。 例 如 针对 “物理 气相 沉 
积 方法 PVD) ”制备 薄膜 样品 过 程 , 建立 相应 的 “物理 气相 沉积 (PVD ) 薄膜 样品 信息 元 数据 标准 ”; 
针对 “X 射线 衍射 分 析 (XRD) ”表征 ， 建 立 “XRD 表征 元 数据 标准 ”; 针对 “XRD 数据 物 相 分 析 ” 
建立 相应 的 “XRD 物 相 分 析 衍 生 元 数据 标准 ”。 计 算数 据 标 准 实例 如 VASP 结构 优化 计算 元 数据 标准 
(虚拟 样品 ) 、VASP 力 常 数 计 算 元 数据 标准 〈 虚 拟 表征 ) 等 。 再 者 ， 标 准 的 内 容 则 是 以 数据 产 出 动 
作 过 程 为 描述 对 象 构建 标准 化 的 元 数据 模式 。 高 通 量 实验 与 计算 数据 的 标准 除 包 含 相 应 的 样品 制备 / 
表征 /计算 /数据 处 理 基本 技术 的 规定 外 ， 还 应 反映 高 通 量 技术 的 特点 。 
e 数据 应 用 标准 板块 包括 一 系列 从 材料 数据 在 研究 中 应 用 角度 出 发 ， 根 据 不 同 材 料 细 分 领域 所 关注 的 材 
料 性 质 、 参 数 来 建立 的 标准 化 应 用 数据 集 元 数据 模式 。 比 如 针对 低 合 金 高 强 钢 研究 人 们 通常 关注 其 关 
键 成 分 、 力 学 性 能 、 组 织 结构 、 加 工 工艺 等 参数 。 领 域 专家 根据 多 年 经 验 ， 构 建 包 括 该 材料 常用 特性 


BH 


的 元 数据 模式 ， 并 形成 领域 共识 ， 使 其 成 为 “ 低 合金 高 强 钢 应 用 元 数据 标准 ”。 数 据 应 用 标准 依据 材 
料 类 型 划分 粒度 ， 为 使 用 者 提供 一 种 专家 经 验 的 视角 。 
e ”数据 技术 标准 板块 是 从 计算 机 科学 出 发 ， 为 材料 数据 标准 在 数据 的 存储 、 交 互 、 挖 气 、 质 量 控制 、 数 


| 据 安 全 等 方面 建立 共识 性 协议 、 规 范 、 标 准 ， 为 数据 在 机 器 层面 的 一 致 性 管理 和 互 操作 性 提供 信息 技 
jin 术 保 障 ， 相 关 工 作 正在 中 国 材料 与 试验 团体 标准 委员 会 材料 基因 工程 领域 委员 会 成 员 单 位 中 积极 推进 。 
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图 3 材料 基因 工程 数据 标准 化 工作 框架 示意 医 


Fig.3 Schematic diagram of the framework for standardization of materials genome engineering data 


2.2 Al-Ready 数据 基础 设施 
数据 标准 化 的 实施 为 构建 完整 可 再 用 和 可 共享 的 规范 化 单条 数据 提供 了 治理 方案 ， 也 为 海量 、 特 征 全 
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发 的 ， 产 出 的 数据 无 论 在 量 与 质 上 ， 均 与 AI 要 求 相 差 甚 远 。 因 此 ，AI-ready 数据 的 获得 需要 与 之 相符 的 
新 型 材料 数据 基础 设施 予以 支撑 。 新 型 材料 创新 基础 设施 将 以 数据 为 核心 ，AI 为 关键 词 ， 由 数据 平台 、 高 
通 量 实验 平台 和 高 通 量 计 算 平 台 三 部 分 组 成 。 数 据 平台 包括 基于 AI 方法 的 软件 工具 库 ， 与 AI-ready 的 数 
据 库 ， 高 通 量 实验 与 高 通 量 计算 平台 作为 数据 生产 来 源 ， 为 快速 获取 大 量 数 据 提 供 了 有 效 途 径 。 这 样 ， 材 
料 基 因 工程 的 3 个 技术 要 素 实现 了 内 在 的 协同 ， 形 成 了 缺 一 不 可 的 深度 融合 关系 。 

构建 ALready 新 型 数据 基础 设施 的 相关 技术 包括 了 数据 的 高 通 量 实验 技术 、 数 据 的 自动 化 采集 存储 技 
术 、 高通 量 计算 技术 、 数 据 标 准 体系 、 数 据 语 义 和 结 构 的 标准 化 存储 、 数 据 的 统一 标识 和 网 络 访问 获取 等 。 
数据 标准 化 随 每 条 数据 渗透 在 其 中 的 每 一 环节 。 通 过 综合 运用 这 些 技术 ， 实 现 AI-ready 数据 产生 、 收 集 、 
和 存储、 处理、 交换、 共享、 使 用 、 分 析 和 网 络 协作 的 全 链条 综合 基础 能 力 n91。 

基于 上 述 考虑 ，Wang 等 9 提出 了 “数据 工厂 ”的 概念 模型 ， 即 在 理想 条 件 下 ，AlI-ready 数据 应 产生 
于 一 个 像 工业 生产 线 一 样 以 标准 化 方式 批量 生产 数据 的 专用 设施 平台 。 图 4 为 数据 工厂 的 概念 图 。 概 念 图 
中 央 是 数据 工厂 的 数据 设施 . 图 4 右 辟 为 实验 数据 工厂 , 它 可 以 是 基于 大 型 科学 设施 (如 同步 加 速 器 光源 、 
中 子 源 等 ) 的 大 规模 、 系 统 性 的 高 通 量 综合 制备 与 表征 平台 设施 , 集成 一 系列 原 位 制备 和 多 参数 表征 手段 ， 
能 够 产生 包括 力学 、 电 气 、 光 学 、 热 学 、 磁 学 和 声学 特征 及 性 能 等 多 参量 数据 ， 理 想 情况 下 ， 所 有 性 能 测 
量 都 在 同一 样品 上 实时 原 位 地 进行 。 图 4 左 辟 展 示 了 计算 数据 工厂 的 概念 ， 它 实质 上 是 一 个 拥有 各 种 高 通 
量 计算 软 硬 件 的 计算 中 心 ， 通 过 密度 泛 函 理论 、 分 子 动力 学 、CALPHAD 方法 、 相 场 模拟 、 有 限 元 分 析 等 
多 种 方法 ， 配 备 有 高 通 量 计算 工作 流程 ， 有 能 力 生成 从 原子 尺度 到 宏观 尺度 的 大 批量 综合 计算 数据 。 数 据 
工厂 可 以 在 同一 地 点 集中 建立 ， 也 可 以 由 一 组 虚拟 链接 站 点 组 成 的 分 布 式 平台 构成 。 

“数据 工厂 ”将 直接 回应 AI-ready 对 材料 数据 的 各 方面 需求 : 自动 化 、 不 间断 流水 线 式 的 数据 采集 存 
储 方式 为 海量 数据 的 产生 提供 了 保证 ;公共 数据 生产 设施 弱化 了 研究 者 通常 所 带 有 的 强烈 目的 性 ， 使 特征 
参数 分 布 更 为 均衡 ， 高 通 量 的 产生 方式 有 利于 获得 具有 更 好 的 系统 性 、 一 致 性 的 数据 ， 毕 合 的 观测 指标 为 
人 工 智 能 对 未 知 规律 的 探索 提供 了 巨大 的 特征 空间 。 数据 标准 可 以 方便 地 实施 于 数据 工厂 , 使 数据 的 采集 、 
存储 和 管理 数据 都 按照 统一 的 方式 进行 ， 保 证 了 FAIR 原则 在 任何 一 条 数据 得 到 满足 。 同 时 ， 由 于 实现 了 
自动 化 与 标准 化 ， 以 “应 收 尽 收 ”原则 收集 大 量 参数 不 再 是 负担 。 
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图 4 “数据 工厂 ”概念 图 示 一 一 一 个 能 够 以 标准 化 方式 批量 生产 数据 的 专用 设施 ， 如 同一 条 工业 和 生产线 


Fig.4 Conceptualization of Data Fab—a dedicated facility capable of mass production of data in a standardized 


manner, just like an industrial production line?" 

“数据 工厂 ”的 出 现 将 给 数据 生产 带 来 一 系列 重大 变革 。 首 先 ， 为 了 更 广泛 的 长 远 的 目标 ， 综 合 、 均 衡 

的 材料 数据 集 将 被 大 规模 地 有 意识 地 产生 ， 而 不 再 局 限于 作为 分 散 的 具有 特定 目的 的 实验 或 计算 的 副 产 物 ; 

其 二 , 数据 标准 的 全 面 实施 保证 参数 的 完整 性 和 数据 的 可 共享 性 , 使 每 条 数据 可 用 度 和 可 用 范围 大 幅 提升 ; 

B=, “数据 工厂 "将 数据 产生 由 个 体 活动 转变 为 有 组 织 的 社会 活动 。 第 四 ， 这 种 有 组 织 的 努力 将 把 数据 的 

社会 属性 从 私有 财产 转变 为 公 \ 共 资源 。 其 结果 将 带 来 材料 数据 数量 和 质量 的 全 面 提升 ， 数 据 共享 将 变 得 更 
加 简单 ， 社 会 总 成 本 也 将 降低 。 这 种 新 型 的 数据 产生 方式 是 材料 科学 的 革命 性 变化 。 

“数据 工厂 ” 概念 模型 反映 了 材料 创新 基础 设施 的 最 新 发 展 趋势 在 美国 白宫 国家 科学 技术 委员 会 于 

2021 年 11 月 发 布 的 最 新 “材料 基因 组 计划 战略 规划 ”0n73 中 对 材料 创新 基础 设施 作 了 重点 部 署 , 提出 连接 、 

创建 和 加 强 计算 工具 、 实 验 工 具 及 数据 存储 共享 软件 框架 等 要 素 ， 建 设 国 家 材料 数据 共享 网 络 ， 将 其 整合 


为 一 个 统一 化 的 材料 研究 连续 体 ， 从 而 扩大 MGI 覆盖 范围 ， 提 高 研究 资源 的 易 得 性 ， 在 这 个 统一 的 数据 
网 络 架构 基础 上 ， 以 构建 ALready 数据 为 目标 ， 利 用 和 加 强 材料 创新 基础 设施 ， 使 人 工 智 能 方法 的 应 用 大 
大 加 快 材料 的 研发 。 
目前 国际 上 已 开 发 了 一 系列 基于 高 通 量 计算 平台 或 计算 “数据 工厂 ”的 数据 库 平台 。 由 麻 省 理工 学 院 
和 劳伦斯 .伯克利 国家 实验 室 联合 开发 的 Materials Project?3， 依 托 美国 国家 能 源 研究 科学 计算 中 心 
(National Energy Research Scientific Computing Center (NERSC) ) 的 超级 计算 集群 ， 并 借助 其 开发 的 
Fireworks 工作 流 软 件 和 Custodian 作业 管理 软件 来 自动 管理 计算 及 数据 处 理 流 程 ， 建 立 了 一 个 大 型 的 材料 
第 一 性 原理 计算 数据 库 ， 迄 今 已 包括 了 超过 146000 种 材料 、24000 种 分 子 、4000 多 种 电池 材料 等 在 内 的 
系列 计算 性 质数 据 , 计算 量 达 1 亿 CPU 小 时 /年 , 并 提供 了 多 种 检索 、 分 析 工 具 来 帮助 研究 人 员 快 速 获取 、 
分 析 数 据 Chttps://next-gen.materialsproject.org) 。 其 它 比较 著名 的 高 通 量 计算 数据 平台 还 有 Automatic Flow 
for Materials Discovery (AFLOW)™], Open Quantum Materials Database (OQMD)'!, Novel Materials 
Discovery (NOMAD)>!Fl MatCloud59 等 。 值 得 注意 的 是 ,这 些 基础 设施 在 数据 管理 和 存储 时 采用 了 各 自 独 
特 的 方式 ， 相 互 之 间 并 没有 遵循 同一 标准 ， 在 多 源 数据 整合 为 Already BEN HES AE). 
OPTIMADE59] 联 盟 发 布 的 通用 API 所 支持 的 数据 基础 设施 包括 了 AFLOW. Materials Project. NOMAD, 
pu OQMD. Materials Cloud[97 等 ， 通 过 OPTIMADE API 可 以 在 这 些 物理 位 置 分 布 不 同 的 材料 数据 基础 设施 实 
< 现 跨 库 检索 ， 体 现 出 了 “数据 工厂 ”分 布 式 建设 、 虚 拟 链接 的 特点 。 
N 与 计算 相 比 ， 有 具有 “数据 工厂 ”特点 的 实验 数据 大 型 数据 库 平台 目前 还 较 少 ， High Throughput 
c Experimental Materials Database (HTEM DB) [9 是 其 中 为 数 不 多 的 典型 代表 ，HTEM DB 由 美国 国家 可 再 
=) AE FE Wii SE Uap 28 (National Renewable Energy Laboratory，NREL) 基 于 其 开展 的 物理 气相 沉积 (PVD) 组 合 薄膜 
= 样品 的 高 通 量 制备 和 表征 实验 数据 而 建设 ， 并 开发 了 LIMS 材料 实验 信息 管理 系统 ， 负 责 自动 收集 、 索 引 
Lae 和 归档 实验 数据 ， 目 前 公共 版 本 涵盖 了 82000 余 个 采用 物理 气相 沉积 合成 的 各 种 薄膜 材料 样品 (氧化 物 、 
氮 化 物 、 硫 化 物 、 磷 化 物 、 金 属 间 化 合 物 ) 的 成 分 (55000+) 、 结 构 〈65000+) 、 光 学 (46000+) 和 电学 
特性 数据 (19000+〉， 同 时 提供 了 用 户 界 面 供 研究 者 查询 检索 ， 并 可 通过 提供 的 应 用 程序 编程 接口 
(Application programming interface，APT) 获 取 更 多 数据 来 进行 数据 挖掘 和 分 析 Chttps://htem.nrel.gov) - 


3 结语 


c 数据 驱动 模式 为 材料 科学 研究 带 来 了 颠覆 性 发 展 机 会 ， 数 据 的 价值 正在 从 辅助 作用 向 核心 作用 转移 。 
传统 范式 下 形成 的 离散 分 布 、 多 源 异 构 、 小 规模 、 无 规范 的 数据 无 法 与 AI 实现 有 效 对 接 ， 制 约 了 数据 驱 
rr 动 效力 在 材料 领域 的 发 挥 ， 面 向 AI 的 数据 治理 和 新 型 数据 基础 设施 建设 成 为 材料 领域 必须 面 对 的 问题 。 

本 文 由 AI 分 析 原 理 出 发 ， 系 统 提出 了 构建 AI-ready 的 材料 数据 所 应 满足 的 条 件 : 海量 、 全 面 、 完 整 、 均 
色 和 可 共享 ， 以 期 为 数据 驱动 研究 从 更 广 领 域 构建 更 多 、 更 可 用 的 材料 数据 提供 基本 参考 依据 和 方向 。 
标准 化 是 实现 Al-ready 材料 数据 的 重要 基础 ， 也 是 全 球 共同 关注 的 问题 。 欧 美国 家 注重 与 既 有 数据 相 
匹配 ， 着 力 通过 建立 整套 材料 科学 本 体 ， 改 善 多 源 异 构 数据 的 可 互 操作 性 ， 但 这 种 元 数据 协调 方式 仍 需 开 
发 数据 转换 器 和 共享 数据 模式 。 我 国 通过 建立 《材料 基因 工程 数据 通则 》 重 新 定义 了 AI-ready 材料 数据 的 
构建 原则 。 基 于 《通则 》 核 心理 念 提 出 的 材料 数据 标准 化 框架 体系 ， 为 AI-ready 的 材料 数据 生态 的 构建 提 
供 一 套 具体 化 的 数据 治理 方案 。 不 论 采 取 何 种 方式 ， 材 料 数 据 的 标准 化 势 在 必 行 ， 但 任重道远 。 
“数据 工厂 ”新 型 数据 基础 设施 是 全 面 构建 ALready 数据 库 的 理想 场所 ， 将 为 材料 研究 领域 持续 不 断 


地 提供 海量 、 全 面 、 完 整 、 均 匀 、 可 共享 的 ALready 标准 化 数据 。 当 有 一 天 “数据 工厂 ”成 为 数据 生产 的 
主要 形式 时 ， 数 据 驱动 的 潜力 将 有 望 真 正 得 到 释放 。 
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章 修 改建 议 ， 汪 洪 ， 张 澜 庭 : 文章 质量 控制 ， 论 证 ， 路 勇 超 ， 汪 洪 : 负责 最 终 修订 版 本 。 
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